标签【Speaker Recognition】

【librosa】音频特征提取

参考【librosa】及其在音频处理中的应用 librosa官方文档 liborosa源码 Overview: module code log-spectr ...

简称SD，顾名思义，在采集的语音信号流中，分辨出不同说话人的说话时长并标注，即以时间为索引，检测出每段语音所对应的说话人身份，其通常由说话人分割和聚类两步组成。参照2010年8月的文献[1]中的一 ...

声纹识别（说话人识别）技术

说话人识别（Speaker Recognition，SR），又称声纹识别（Voiceprint Recognition,VPR），顾名思义，即通过声音来识别出来“谁在说话”。语音识别（Automati ...

引言感知实验表明，人耳对于声音信号的感知聚焦于某一特定频率区域内，而非在整个频谱包络中。耳蜗的滤波作用是在对数频率尺度进行的，在1000Hz以下为线性，在1000Hz以上为对数，这就使得人耳对低频 ...

使用ML.NET实现猜动画片台词

前面几篇主要内容出自微软官方，经我特意修改的案例的文章：使用ML.NET实现情感分析[新手篇] 使用ML.NET预测纽约出租车费 .NET Core玩转机器学习使用ML.NET实现情感分析 ...

【sklearn】Gaussian Mixture Model

概述参考 sklearn.mixture: Gaussian Mixture Models 高斯混合模型（GMM）源代码实现（二） A Gaussian Mix ...

文章[1]主要针对的是语句长度不定，含有不相关信号的说话人识别。深度网络设计的关键在于主干(帧级)网络的类型【the type of trunk (frame level) network】和有时 ...

【album】语音合成技术

持续更新中。基础语音合成（Text To Speech，TTS），将文字转化为语音的一种技术。语音合成技术 - 知乎 (zhihu.com) 论文推介：Glow-WaveGAN—学习 ...